Em um dos relatórios de pesquisa do Datafolha para as eleições de 2018, lemos a seguinte frase:
Para entender o que quer dizer isso (e por que essa descrição está errada), precisamos falar de amostras, estimação e incerteza.
A motivação mais comum para o uso de estatística nas ciências sociais é fazer inferências com base em amostras. A ideia é que, para saber uma característica qualquer da população, podemos observar alguns casos e seguir algumas regras de estimação.
A diferença mais importante entre a estatística inferencial e a estatística descritiva é que, na primeira, nosso objetivo é calcular e comunicar incerteza. Não fazemos inferência estatística para descobrir qual é o valor de um parâmetro; fazemos inferência para dar um palpite razoável sobre esse valor, com cálculo preciso da incerteza.
Vamos ver alguns conceitos.
Você pode ser perguntar: se estamos fazendo apenas uma pesquisa, como sabemos que o valor dela representa um palpite razoável sobre o parâmetro?
Você pode ser perguntar: se estamos fazendo apenas uma pesquisa, como sabemos que o valor dela representa um palpite razoável sobre o parâmetro?
Como fazer a ponte entre os dados que coletamos em nossa amostra e o valor verdadeiro do parâmetro populacional? Como comunicar a incerteza?
Vamos testar o que vimos até agora! Qual a porcentagem de bolas vermelhas dentro da bacia?
Ao sacudir a bacia garantimos aleatoriedade na distribuição de bolinhas. Com uma pá adequada, podemos retirar uma amostra aleatória de 50 bolinhas.
Na Figura, vemos a presença de 17 bolas vermelhas, o equivalente a 34% da amostra. Podemos usar o resultado obtido na amostra aleatória como um palpite adequado (estimativa pontual) sobre a proporção de bolas vermelhas na bacia? Vamos usar simulação e aplicar o Teorema Central do Limite para nos ajudar com a resposta!
Vamos simular nossa bacia com bolinhas!
red_prop <- bowl %>% mutate(is_red = (color == "red")) %>%
summarize(num_red = sum(is_red),
perc = num_red/n()) %>% select(perc)Como fomos nós que criamos a bacia com bolinhas (a nossa população em análise), podemos computar o verdadeiro valor do parâmetro. Ou seja, nós sabemos exatamente qual a proporção de bolinhas vermelhas na bacia, 37.5%.
Esse é o valor que desejamos estimar com a máxima precisão e acurácia possíveis!
Vamos agora simular a nossa seleção aleatória de casos.
virtual_shovel <- bowl %>%
rep_sample_n(size = 50)
red_prop_sample <- virtual_shovel %>%
mutate(is_red = (color == "red")) %>%
summarize(num_red = sum(is_red),
perc = num_red/n()) %>% select(perc)Em nossa amostra aleatória, nós podemos identificar que a proporção de bolinhas vermelhas é igual a 36%. É igual o verdadeiro valor do parâmetro?
n_rounds <- 30
sample_size <- 50
virtual_samples <- bowl %>%
rep_sample_n(size = sample_size, reps = n_rounds)
virtual_samplesSeguindo os pressupostos do Teorema Central do Limite, e se utilizarmos nossa pá virtual para coletar diferentes amostras (30 amostras) com 50 bolinhas cada? Qual será a distriuição da proporção de bolinhas vermelhas?
Seguindo os pressupostos do Teorema Central do Limite, e se utilizarmos nossa pá virtual para coletar diferentes amostras (30) com 50 bolinhas cada? Qual será a distriuição da proporção de bolinhas vermelhas?
O que acontece se aumentarmos o número de amostras para 1000?
Obtemos uma distribuição em forma de sino mais simétrica e suave. Uma distribuição bem aproximada de uma distribuição normal.
O que acontece se mantivermos o número de amostras em 1000, mas variarmos o tamamnho das amostras em 25, 50 e 100 bolinhas por experimento?
À medida que o tamanho da amostra aumenta, a variação das 1000 rodadas da proporção de vermelho diminui. Em outras palavras, conforme o tamanho da amostra aumenta, há menos diferenças devido à variação da amostragem e os centros das distribuições ficam mais próximos do mesmo valor.
Conceitos vistos até agora:
Conceitos vistos até agora (cont.):
Até aqui:
Em suma, a amostragem aleatória garante que nossas estimativas pontuais sejam acuradas. E, ao mesmo tempo, ter um tamanho de amostra grande garante que nossas estimativas pontuais sejam precisas.
Vimos como a teoria opera e podemos confiar na possibilidade de fazer estimativas pontuais a partir de uma amostra aleatória.
No entanto, é viável realizar diferentes amostras de uma população do ponto de vista prático? Não! Na prática, temos apenas uma amostra para produzir inferências sobre a população.
Diante desse fato, como produzir inferências que não dependam da sorte de obter a amostra adequada?
Faremos isso usando uma técnica conhecida como reamostragem de bootstrap (Bootstraping) com reposição e a obtenção de intervalos de confiança.
Tente imaginar todas as moedas de um centavo sendo usados nos Estados Unidos. Agora, digamos que estamos interessados no ano médio de produção das moedas de um centavo em circulação. Como é impossível adquirir todas as moedas para calcular o ano médio de produção, podemos acessar uma amostra aleatória de 50 delas.
Com base nesses 50 centavos de amostra, o que podemos dizer sobre todos os centavos em circulação nos EUA? Vamos estudar algumas propriedades de nossa amostra realizando uma análise exploratória de dados. Vamos primeiro visualizar a distribuição do ano desses 50 centavos.
Se assumirmos que temos uma amostra representativa de todos os centavos dos EUA, uma boa estimativa pontual do ano médio de cunhagem de todos os centavos dos EUA seria 1995.44. Em outras palavras, por volta de 1995.
Contudo, vimos que nossa estimativa pontual está sujeita a variações de amostragem. Por exemplo, nesta amostra específica, observamos três centavos com o ano de 1999. Se amostrássemos outros 50 centavos, observaríamos exatamente três centavos com o ano de 1999 novamente? Provavelmente não. Logo, não sabemos se estamos diante de uma boa amostra e, para avançar, precisamos estudar nossa variação amostral através da única amostra que temos.
Faremos isso usando uma técnica conhecida como reamostragem de bootstrap com reposição!
Exemplo de uma reamostragem:
O que acabamos de realizar foi uma reamostragem da amostra original de 50 centavos. Não estamos amostrando 50 centavos da população de todos os centavos dos EUA. Em vez disso, estamos imitando essa tarefa reamostrando 50 centavos de nossa amostra original de 50 centavos.
Utilizando simulação computacional, podemos, portanto, realizar este procedimento quantas vezes desejarmos! Ao final, temos a distribuição das médias amostrais!
Acabamos de construir nossa primeira distribuição bootstrap! A média dessas 1.000 médias é 1995.4112, que é bastante próxima da média de nossa amostra original de 50 centavos de 1995.44. Usando essa distribuição bootstrap, podemos estudar o efeito da variação da amostragem em nossas estimativas. Em particular,o “erro” típico de nossas estimativas, conhecido como erro padrão.
Para refinar nossa análise, ao invés de adotar uma simples estimativa pontual sobre o parâmetro da população (ano médio das moedas de um centavo circulando nos EUA), vamos aprender a construir intervalos de confiança.
Ao contrário de uma estimativa pontual que estima o parâmetro desconhecido da população com um único valor, um intervalo de confiança (IC) permite inferir uma gama de valores plausíveis sobre o parâmetro populacional. Veremos dois métodos para construir tais intervalos, ambos construídos a partir da distribuição bootstrap: o método do percentil e o método do erro padrão.
Ambos métodos exigem que se especifique um nível de confiança. Em outras palavras, a confiança com a qual assume-se que o intervalo construído possuirá o valor verdadeiro do parâmetro populacional.
Tudo mantido constante, níveis de confiança mais altos correspondem a intervalos de confiança mais amplos e níveis de confiança mais baixos correspondem a intervalos de confiança mais estreitos. Por padrão, vamos adotar o nível de confiança de 95%.
Um método para construir um intervalo de confiança é usar os 95% intermediários dos valores da distribuição de bootstrap. Podemos fazer isso calculando os percentis 2,5 e 97,5. Continuando com nosso exemplo sobre as moedas de um centavo, temos como limite inferior do intervalo 1991.279 e como limite superior do intervalo 1999.541.
Usando nossa regra de ouro de 95% sobre distribuições normais,
\[IC = \overline{x} \pm 1.96 \cdot SE\]
temos como limite inferior o valor de 1991.2367661 e como limite superior o valor de 1999.5856339.
inferinferinferinferinferA eficácia de um intervalo de confiança é avaliada pelo fato de conter ou não o valor verdadeiro do parâmetro da população. Logo, o intervalo de confiança construído a partir de 95% de nível de confiança sempre captura o valor do parâmetro populacional? A resposta é não!
Nosso procedimento de construção do intervalo de confiança é 95% confiável. Ou seja, podemos esperar que nossos intervalos de confiança incluam o parâmetro real da população em cerca de 95% do tempo.
Perceba que o intervalo de confiança contém ou não contém o parâmetro. Em outras palavras, a probabilidade é 1 ou 0.
Portanto, se o nível de confiança de 95% se relaciona apenas à confiabilidade do procedimento de construção do intervalo de confiança e não a um determinado intervalo de confiança em si, que percepção pode ser derivada de um determinado intervalo de confiança?
Em termos gerais, podemos pensar nos intervalos calculados (método do percentil ou do erro padrão) como nossa “melhor estimativa”, “melhor palpite”, de uma faixa plausível de valores para o parâmetro populacional.
O World Values Survey é um projeto que faz pesquisas de opinião representativas em diversos países, entre eles o Brasil.
As perguntas são padronizadas, de modo a facilitar a comparação. São avaliadas as percepções das pessoas sobre assuntos como instituições políticas, capital social, religião e valores pós-materialistas.
Vamos criar um objeto wvs com os resultados.
Usando os dados do WVS, podemos estimar a confiança dos brasileiros em suas instituiições políticas. Vamos utilizar o seguinte bloco de perguntas:
Qual é o percentual de pessoas que confia em partidos políticos no Brasil?
Resposta: Pela pesquisa, podemos estimar que 13.8% dos brasileiros confiavam nos partidos políticos em 2018. Se repetíssemos essa pesquisa infinitas vezes, 95% das médias estariam entre 12.1% e 15.4%.
Identifique o país com maior confiança na ONU, e construa o intervalo de 95% de confiança em torno da média.
Lembre-se de que não estamos olhando para toda a população. Tão importante quanto identificar qual é o “melhor palpite” sobre o valor do parâmetro é comunicar seu grau de incerteza em relação à estimativa.
Inferência é um palpite bem informado sobre o valor do parâmetro, condicionado a algumas suposições. Não basta falar qual é o seu palpite, é fundamental comunicar com clareza quão certo você está dele!
Datafolha em 2018:
Datafolha em 2014:
As instruções da tarefa estão no arquivo NN-ds4ps-inference-assignment.rmd da pasta assignment deste projeto.